单步

小扎「梦之队」首批论文上线，LLM自举进化，单步性能狂飙22%

真Meta Superintelligence Labs新作来了！LLM学会「自我改进」：只做单步训练，推理却能多步迭代。在数学、工具调用、多轮任务到MLE-bench上，ExIt持续拔高模型表现，其中MLE-bench相对GRPO提升约22%。

这项由南华理工大学的沈文轩、华中科技大学的王明佳、王耀晨、马里兰大学的陈东平等研究人员合作完成的研究发表于2025年8月，论文题目为《我们是否在正确评估文档检索增强生成系统？》。有兴趣深入了解的读者可以通过https://double-bench.github